IPBLN
  • Inicio
  • Metodología
  • Resumen
  • Análisis
    • ➤ Introducción contextual
    • 1. Revisión inicial de muestras y metadatos
    • 2. Evaluación de calidad de las lecturas
    • 3. Alineamiento de las lecturas
    • 4. Cuantificación de la expresión génica
    • 5. Análisis estadístico de la expresión génica
    • 6. Conclusiones y perspectivas

IPBLN Bioinformatics Report

Mini Chat RAG (beta)

¡Hola! Soy Geni, el asistente inteligente de GenoScribe. Estoy aquí para ayudarte a explorar de forma interactiva el contenido de este informe bioinformático.

Cuando me haces una pregunta, primero intento reconocer si coincide con alguno de los patrones o expresiones que conozco. Si encuentro una coincidencia, te responderé directamente con una respuesta predefinida, diseñada para ser rápida, clara e incluso un poco ingeniosa. Si no reconozco el patrón, entonces activo mis herramientas de búsqueda: genero representaciones vectoriales (embeddings) y busco los fragmentos más relevantes entre varios documentos —incluyendo el propio informe, archivos PDF y HTML externos, y sesiones de preguntas y respuestas (QA). A partir de esa información, creo un resumen que intenta ofrecerte una respuesta coherente y útil basada en el contenido existente.

Se debe tener en cuenta que este entorno es experimental. No utilizo grandes modelos de lenguaje, por lo que algunas respuestas pueden ser aproximadas o incompletas. El objetivo principal es facilitar una visualización rápida, comprensible y reproducible de la información contenida en los documentos, permitiendo una exploración más dinámica del informe.

Actualmente, los resultados pueden variar en precisión, ya que empleo modelos ligeros y locales para asegurar que la aplicación funcione en cualquier entorno sin necesidad de servidores externos. Sin embargo, la estructura del sistema está preparada para mejorar notablemente su rendimiento en el futuro mediante la integración con modelos más avanzados o APIs externas. Para comenzar, simplemente escribe tu pregunta en el campo inferior y deja que yo me encargue del resto. ¡Prometo poner todo mi código en ello!

Pestaña

Análisis bioinformático completo

Sección 5

Análisis estadístico de la expresión génica

Subsección 5.1

Normalización de los datos de expresión

▼

Resumen

En esta sección se lleva a cabo la normalización de los datos de expresión génica, un paso esencial para garantizar la comparabilidad entre muestras y minimizar sesgos técnicos derivados del tamaño de las bibliotecas de secuenciación o de la longitud de los genes. Se transforma la matriz de recuentos crudos en medidas normalizadas, como RPKM (Reads Per Kilobase per Million), que permiten interpretar los niveles de expresión de forma más robusta y comparable entre genes y muestras.

A lo largo del análisis, se visualiza la matriz normalizada y se evalúan métricas clave como el total de expresión por muestra o el número de genes expresados, permitiendo detectar posibles anomalías o desviaciones tras la transformación. También se identifican los genes con mayor expresión global y se estudia la distribución de expresión a través de diagramas de caja, comparándola con los datos originales para valorar el efecto de la normalización.

Esta fase prepara el terreno para los análisis posteriores, donde se requerirá que los datos estén correctamente ajustados para aplicar modelos estadísticos fiables. La normalización, por tanto, constituye un paso fundamental previo a la evaluación de la calidad post-normalización y a los análisis de expresión diferencial y enriquecimiento funcional, claves para extraer conocimiento biológico relevante a partir del perfil transcriptómico estudiado.

Tabla de contenidos de esta subsección

  • 5. Análisis estadístico de la expresión génica
    • 5.1. Normalización de los datos de expresión
      • 5.1.1. Visualización de la matriz de expresión normalizada
      • 5.1.2. Total de lecturas por muestra (RPKM)
      • 5.1.3. Número de genes expresados por muestra (RPKM)
      • 5.1.4. Genes con mayor expresión total (RPKM)
      • 5.1.5. Distribución de expresión por muestra (boxplot log10 RPKM)
      • 5.1.6. Comparación entre recuentos crudos y datos normalizados

5.1. Normalización de los datos de expresión

La cuantificación inicial de la expresión génica genera una matriz de recuentos crudos, en la que cada valor representa el número de lecturas que se alinean a un gen específico en una muestra determinada. No obstante, estos valores pueden estar influenciados por factores técnicos no biológicos, como la profundidad de secuenciación o la longitud de los genes, lo que dificulta la comparación directa entre muestras o genes.

Para mitigar estas fuentes de sesgo y facilitar comparaciones significativas, se ha aplicado un proceso de normalización. En este análisis, se ha empleado el método RPKM (Reads Per Kilobase of transcript per Million mapped reads), el cual ajusta los recuentos teniendo en cuenta tanto la longitud del gen como el número total de lecturas mapeadas por muestra.

El resultado de esta transformación es una matriz de expresión normalizada que permite comparar niveles de expresión relativos de manera más robusta entre genes y entre condiciones experimentales.

La matriz RPKM utilizada en este proyecto viene dada por el nombre mary_RPKM.xls y en el momento de la generación de este informe se encuentra en el siguiente directorio:

/workspace/data/0101-EXT-25-Transcriptomics-Bulk-RNA-Seq/Resultados/mary/mary_RPKM.xls

A continuación, se muestra esta matriz junto con un conjunto de visualizaciones que permiten explorar las características globales de los datos normalizados y compararlas con los patrones observados en los recuentos crudos presentados en la sección anterior.

5.1.1. Visualización de la matriz de expresión normalizada

A continuación, se presenta una vista interactiva de la matriz de expresión génica normalizada, obtenida a partir del archivo mary_RPKM.xls. Esta matriz contiene valores transformados según el método RPKM, lo que permite una comparación más equitativa de los niveles de expresión génica entre diferentes muestras y genes, corrigiendo posibles sesgos técnicos asociados al tamaño de los genes o a la profundidad de secuenciación.

La tabla interactiva mostrada a continuación permite explorar en detalle los valores de expresión normalizada. Se puede buscar un gen específico utilizando el cuadro de búsqueda, así como ordenar las columnas para identificar rápidamente genes con altos o bajos niveles de expresión en cada muestra. Adicionalmente, mediante el botón que se proporciona justo debajo, se puede descargar dicho archivo.

Descargar archivo “mary_RPKM.xls”

Esta visualización resulta especialmente útil para detectar posibles patrones globales de expresión, validar muestras atípicas o verificar la correcta distribución de los valores normalizados antes de proceder al análisis estadístico de expresión diferencial.

Si desea consultar el archivo completo, puede hacerlo directamente desde el visor incrustado justo debajo o abrirlo en una nueva pestaña mediante el correspondiente botón incrustado.

Abrir archivo en una pestaña nueva

5.1.2. Total de lecturas por muestra (RPKM)

Para continuar con la exploración de los datos normalizados, se calcula el total de expresión por muestra sumando los valores de RPKM correspondientes a todos los genes. Este valor refleja la cantidad global de expresión génica detectada en cada muestra tras la corrección por longitud génica y profundidad de secuenciación.

A continuación, se muestra dicha tabla resultante, con los totales de expresión normalizada por muestra y la cuál se puede explorar de forma interactiva.

Descargar archivo “total_lecturas_muestra_normalized.txt”

Estos resultados que acabamos de visualizar han sido guardados en un archivo denominado total_lecturas_muestra_normalized.txt, el cuál se puede descargar a través del botón proporcionado anteriormente. Adicionalmente, podemos visualizar este archivo mediante el siguiente iframe o explorarlo de forma más detallada en una nueva pestaña.

Abrir archivo en una pestaña nueva

Finalmente, se proporciona el siguiente gráfico de barras interactivo, que permite comparar la profundidad de secuenciación entre condiciones y réplicas y con el cuál se puede observar estos resultados de una forma más dinámica y visual.

Abrir gráfico en pantalla completa

5.1.3. Número de genes expresados por muestra (RPKM)

Una vez evaluado el total de expresión global por muestra, el siguiente paso consiste en determinar cuántos genes se consideran expresados en cada una de ellas tras la normalización mediante RPKM. Para este análisis, se considera que un gen está expresado en una muestra si su valor de RPKM es mayor que cero.

Esta métrica resulta útil para detectar muestras con baja complejidad transcriptómica o posibles fallos técnicos, ya que un número reducido de genes expresados podría ser indicativo de una extracción deficiente de RNA, contaminación o errores durante la secuenciación o cuantificación.

A continuación, se muestra dicha tabla resultante, con el número de genes expresados por muestra según el criterio anterior, la cuál se puede explorar de forma interactiva.

Descargar archivo “genes_expresados_muestra_normalized.txt”

Estos resultados que acabamos de visualizar han sido guardados en un archivo denominado genes_expresados_muestra_normalized.txt, el cuál se puede descargar a través del botón proporcionado anteriormente. Adicionalmente, podemos visualizar este archivo mediante el siguiente iframe o explorarlo de forma más detallada en una nueva pestaña.

Abrir archivo en una pestaña nueva

Finalmente, se proporciona el siguiente gráfico de barras interactivo, que facilita la comparación entre condiciones experimentales y con el cuál se puede observar estos resultados de una forma más dinámica y visual.

Abrir gráfico en pantalla completa

5.1.4. Genes con mayor expresión total (RPKM)

Para identificar los genes con mayor nivel de expresión dentro del conjunto de datos normalizados, se calcula la suma total de valores RPKM por gen a lo largo de todas las muestras. Esta métrica permite detectar aquellos genes cuya actividad transcripcional es más elevada de forma global tras corregir por longitud génica y profundidad de secuenciación.

Este análisis resulta útil para destacar genes altamente expresados que podrían desempeñar funciones clave en el contexto experimental, o bien reflejar la expresión constitutiva de genes de mantenimiento (housekeeping).

A continuación, se muestra dicha tabla resultante, con los genes ordenados según su mayor expresión acumulada, de forma descendente según su número total de lecturas.

Descargar archivo “genes_mayor_expresion_total_normalized.txt”

Estos resultados que acabamos de visualizar han sido guardados en un archivo denominado genes_mayor_expresion_total_normalized.txt, el cuál se puede descargar a través del botón proporcionado anteriormente. Adicionalmente, podemos visualizar este archivo mediante el siguiente iframe o explorarlo de forma más detallada en una nueva pestaña.

Abrir archivo en una pestaña nueva

Finalmente, se proporciona el siguiente gráfico de barras interactivo, donde se pueden observar los 20 genes con mayor expresión, permitiendo valorar su contribución relativa dentro del conjunto de datos.

Abrir gráfico en pantalla completa

5.1.5. Distribución de expresión por muestra (boxplot log10 RPKM)

Para evaluar la variabilidad de los niveles de expresión normalizados entre muestras, se genera un gráfico de cajas (boxplot) basado en la transformación logarítmica (log10) de los valores RPKM. Esta transformación permite representar la distribución de los datos de manera más adecuada, suavizando el efecto de valores extremadamente altos y resaltando diferencias sutiles entre condiciones.

Los valores RPKM iguales a cero se excluyen previamente para evitar problemas con la escala logarítmica. Esta visualización resulta especialmente útil para verificar la homogeneidad entre réplicas, detectar valores atípicos y evaluar si las muestras presentan perfiles de expresión comparables tras la normalización.

A continuación, se presenta el boxplot interactivo correspondiente a todas las muestras del experimento.

Abrir gráfico en pantalla completa

5.1.6. Comparación entre recuentos crudos y datos normalizados

En el análisis de datos de expresión génica, la normalización es un paso crítico que busca corregir sesgos técnicos derivados de variaciones en la profundidad de secuenciación, tamaño de los genes y otros factores experimentales. Aunque la normalización tiene como objetivo hacer que los datos sean comparables entre muestras, es fundamental evaluar cómo este proceso afecta a la distribución y la relación entre los valores originales (recuentos crudos) y los ajustados (normalizados).

Esta comparación nos permite verificar dos aspectos importantes: primero, que la normalización efectivamente reduzca las diferencias técnicas no biológicas que podrían sesgar los resultados; y segundo, que preserve la estructura biológica y las diferencias genuinas en la expresión génica.

Es importante destacar que la matriz normalizada puede contener un número menor o igual de genes que la matriz inicial de conteos, debido a que durante el proceso de normalización o preprocesamiento se suelen filtrar genes con baja expresión o sin anotación adecuada para asegurar la calidad del análisis.

Para explorar y evaluar esta comparación, se presentan a continuación tres tipos de visualizaciones complementarias que nos permiten entender mejor cómo varían los datos antes y después de la normalización:

  • Boxplots comparativos ⇒ muestran la distribución logarítmica (log10) de los valores crudos y normalizados, agrupados por muestra, para visualizar la homogeneización y reducción de la dispersión tras la normalización.
  • Scatterplots por muestra ⇒ comparan, en escala logarítmica, los valores crudos frente a los normalizados por gen en muestras seleccionadas, revelando la relación directa y la consistencia entre ambas mediciones.
  • Gráfico de barras de correlación ⇒ presenta la correlación de Pearson entre los recuentos crudos y los valores normalizados para cada muestra, proporcionando una métrica cuantitativa de concordancia entre ambos conjuntos de datos.

A continuación se detallan cada una de estas visualizaciones, explicando su interpretación y utilidad para el análisis de expresión génica.

➤ Visualización 1: Distribución de expresión por muestra

El siguiente gráfico de cajas (boxplot) muestra la distribución de los recuentos de expresión para cada muestra, aplicando una transformación logarítmica (log10) para mejorar la visualización y homogeneizar la escala. Se presentan lado a lado los datos crudos y normalizados, lo que permite comparar la variabilidad y dispersión entre ambos conjuntos. En general, se observa que la normalización reduce la variabilidad extrema y alinea mejor las distribuciones entre muestras, facilitando comparaciones posteriores y minimizando el sesgo técnico derivado de diferencias en profundidad de secuenciación o longitud génica.

Abrir gráfico en pantalla completa

➤ Visualización 2: Relación directa entre recuentos crudos y normalizados

El siguiente gráfico (scatterplot por muestra) sirve para ejemplificar la relación entre los dos tipos de datos, se selecciona una muestra representativa y se grafica la expresión génica por cada gen en escala logarítmica, comparando valores crudos frente a valores normalizados. La línea diagonal punteada indica la igualdad entre ambos valores; los puntos por debajo muestran genes que han sido ajustados a niveles inferiores tras la normalización. Este gráfico ayuda a visualizar cómo la normalización corrige sistemáticamente los recuentos, especialmente aquellos genes con valores extremos, sin alterar la tendencia general entre genes altamente y poco expresados.

Abrir gráfico en pantalla completa

➤ Visualización 3: Correlación de Pearson entre recuentos crudos y normalizados por muestra

Por último, el siguiente gráfico de barras, sirve para cuantificar la relación entre los dos conjuntos de datos, se calcula el coeficiente de correlación de Pearson para cada muestra, reflejando la conservación relativa de los patrones de expresión génica. Altos valores de correlación indican que la normalización mantiene la estructura biológica entre genes dentro de cada muestra, a la vez que corrige variaciones técnicas. Este análisis cuantitativo complementa las visualizaciones previas y aporta una medida objetiva de la calidad del proceso de normalización.

Abrir gráfico en pantalla completa

Así, una vez analizado y comentado todo esto, podemos continuar con el siguiente apartado (Evaluación de la calidad tras la normalización) donde nos centraremos en realizar una evaluación del control de calidad de estos resultados obtenidos tras el proceso de normalización.